簡介:爬蟲技術用來從互聯網上自動獲取需要的數據。課程從對爬蟲的介紹出發,引入一個簡單爬蟲的技術架構,然后通過是什么、怎么做、現場演示三步驟,解釋爬蟲技術架構中的三個模塊。最后,一套優雅精美的爬蟲代碼實戰編寫,向大家演示了實戰抓取百度百科1000個頁面的數據全過程
第3章 簡單爬蟲架構
本章介紹了精心提煉的一個簡潔爬蟲技術架構,通過動態圖介紹了技術架構實現爬蟲任務的流程,使大家對爬蟲的整體組成和運行流程有整體的把握。
第4章 URL管理器和實現方法
本章介紹了簡單爬蟲架構的URL管理器模塊,用于管理待爬取的URL集合和已爬取的URL集合,也介紹了實現URL管理器的幾種方法
第5章 網頁下載器和urllib2模塊
本章介紹了簡單爬蟲架構的網頁下載器模塊,將網頁下載下來然后才能進行后續的數據提取,本章然后介紹了Python自帶的urllib2模塊的各種使用語法用于網頁的下載
第6章 網頁解析器和BeautifulSoup第三方模塊
本章介紹了簡單爬蟲架構的網頁解析器模塊,解析器用于從網頁中提取價值數據和新的待爬取URL,本章然后介紹了BeautifulSoup這個強大的第三方模塊用于數據的解析和提取
第7章 實戰演練:爬取百度百科1000個頁面的數據
本章是課程的核心部分,通過一套精心設計并編寫的爬蟲代碼,實現了課程前面講述的簡單爬蟲架構中各個組成部分,爬蟲代碼最終完成了百度百科1000個頁面的數據爬取并進行了數據展示,本代碼經過配置修改后,可以用來爬取任何網站數據。